用盒狀圖視覺化數值型態的資料,其實也不是說我今天沒做資料處理,應該說在資處的時候發現有滿多還算有意思的數據,例如下面這個"計程車車輛總價",就會想看看他的分佈,這邊提供一個簡單方便的程式碼。
把你要的數據複製起來跑這行,可以讓資料直接進入你的R。
data = read.table("clipboard",header = F , sep = '\t')
一樣,如果library沒有的話請先安裝(但其實這個沒有很重要)
library(psych)
library(tidyverse)
par(mfrow=c(1,2))
data = parse_number(unlist(data))
word = describe(data)
boxplot(data,
main="計程車車輛總價",
ylab = "金額",
col ="gray"
)
hist(parse_number(unlist(data)),main="計程車司機一天營業總收入",
ylab = "出現次數",
xlab = "金額",
col ="gray")
噢...看樣子有人車買太好,這樣啥都看不出來。我把最後1%的炫富仔砍掉。
data = data[order(data)]
data1 = data[1:(length(data)*0.99)]
boxplot(data1,
main="計程車車輛總價",
ylab = "金額",
col ="gray"
)
hist(parse_number(unlist(data1)),main="計程車司機一天營業總收入",
ylab = "出現次數",
xlab = "金額",
col ="gray")
這樣就滿清楚了吧!
同理,只要是數值形態的數據就可以用這個方法稍微看看,之前有學弟妹問要怎樣看一筆資料是不是常態分配,我覺得
1.中位數要接近平均數
2.就是看這種圖了吧
(寫好了看到數據就可以直接複製貼上馬上跑出圖)
這篇比較像是分享程式碼,其實這種形態我寫起來會比較輕鬆,而且我覺得對大部分的人可能更有意義一些,畢竟我自己在工作,其實很多時候做的就是這樣是覺化的工作,把一行數據變成圖片呈現給老大(老闆)看。
但我想做的是事前預測啊,我的目標是用結構方程模型、主成分分析、關連法則、資料採礦的方式分析數據,然後如果想要學更多畫圖(ggplot)的內容,我的同事也有在板上寫,幫他打個廣告哈哈(https://ithelp.ithome.com.tw/users/20112574/profile )有機會的話去看看吧!